Agent 是不是在绕开训练模型？

读 Hello-Agents 的第十章和第十一章时，我逐渐意识到一件事：

我们现在谈论的大多数 Agent 内容，本质上不是在讨论“智能”，而是在讨论“工程补丁”。

这不是贬义，而是一个阶段性的事实。

一、Agent 协议看似繁荣，其实解决的是“协作”，不是“能力”

第十章介绍了三种所谓的“智能体通信协议”：MCP、A2A 和 ANP。

它们确实重要，但重要的方式，可能和很多人想象的不太一样。

**MCP（Model Context Protocol）**解决的是：

Agent 如何以一种更工程化的方式使用工具

它强调“上下文共享”，但从实现上看，更准确的说法是：

为 Agent 与工具之间的交互，提供一个有生命周期的上下文容器，而不是每次调用都重新塞 prompt。

这是工程进步，但它并没有让 Agent 变“更聪明”，只是让调用工具这件事更干净、更可维护。

A2A 和 ANP 则把问题推向另一个层面：

Agent 如何调用 Agent？
Agent 如何在网络中发现其他 Agent？

逻辑上它们成立，工程上也很优雅，但 Hello-Agents 自己也承认：
这些都还处在非常早期的阶段。

所以到这里，一个事实已经很清楚了：

当前最成熟、最可用的 Agent 技术，并没有提升模型能力，而是在补偿模型的不稳定性。

这句话，是后面所有困惑的起点。

二、第十一章让我真正困惑的，不是 RL，而是“到底在训练谁”

如果说协议只是“我有所保留”，那第十一章的 Agentic Reinforcement Learning，第一次让我明确卡住了。

问题其实很简单：

LLM 的强化学习我能理解
但 Agent 的强化学习，训练的到底是什么？

Gemini 给了一个非常直接的回答：

物理上，你是在训练 LLM 的权重；
逻辑上，你是在训练这个模型扮演“Agent”的方式。

ChatGPT 的说法更工程一些：

Agent 不是被训练的实体，它是一个由 LLM 驱动、在环境中反复决策的系统。

把这两种说法合在一起，结论反而非常清楚：

所谓 Agentic RL，本质上仍然是 LLM 训练。
Agent 并没有“学会”什么，它只是表现为一种被训练过的策略集合。

最终交付给用户的，依然只是一个权重文件。

三、一个越来越难忽视的问题：我们是不是在用框架，绕开“训练模型”？

到这里，我反而更加坚定了一个从一开始就隐约存在的想法：

现在大家拼命讨论 Agent 框架、范式、协作，本质上是不是在回避一件更难的事：训练模型？

知乎上有个很火的问题：
Qwen3-0.6B 这种小模型有什么意义？

换个角度问可能更刺耳：

对于大量窄任务 Agent，为什么不直接训练一个 0.6B 的专用模型？

Gemini 的回答非常“现实主义”，甚至有点残酷。

它认为现在大家之所以卷框架，是因为：

用的是通用大模型
模型太聪明、太发散、太不可控
框架的本质，是用大量工程手段去约束一个不合适的模型

它给了一个很形象的比喻：

你雇了一个绝顶聪明、热爱写诗的诗人来拧螺丝。
因为他总想写诗，你只好安排一整套监工系统盯着他。

而真正的终局是：

直接训练一个只会拧螺丝的小模型。

不需要监工，也不需要复杂框架。

四、那为什么现在 Agent 仍然有意义？

答案其实很朴素：数据。

在你能训练一个稳定、可靠的 0.6B 专用模型之前，你需要大量高质量的行为数据。

而这些数据从哪来？

Gemini 给出的路径，我认为是目前最符合现实的 Agent 落地闭环：

原型期：用大模型 + Agent 框架跑通流程
蒸馏期：记录成功运行的轨迹，形成高质量数据
工程化期：微调小模型，抛弃复杂框架

如果这个判断成立，那么一个略显反直觉的结论就出现了：

Agent 框架，可能并不是终局，而是为了走向“专用模型时代”的过渡工具。

最近很火的 MiroThinker，用 30B 权重跑出接近大模型的能力，也许正是这个方向的一个信号。

Agent 会不会消失？我不知道。

但我越来越怀疑：
当模型足够“对口”，我们今天热烈讨论的很多 Agent 问题，可能会自然蒸发。

后记：我知道在OpenClaw爆火出圈的今天发表这样的观点肯定会被人吐槽外行。不要紧，咱们下次再聊，也许我有点其他的观点呢？让子弹再飞一会儿。

Agent 是不是在绕开训练模型？

一、Agent 协议看似繁荣，其实解决的是“协作”，不是“能力”

二、第十一章让我真正困惑的，不是 RL，而是“到底在训练谁”

三、一个越来越难忽视的问题：我们是不是在用框架，绕开“训练模型”？

四、那为什么现在 Agent 仍然有意义？

留言